大数据的不能仅仅以数据量的大小来衡量,一般来说,它是不能以传统数据库的处理方式来处理的数据集。这种数据的积累,可以在许多方面提升服务质量。但同时又出现另一个问题——数据隐私保护,数据安全成为大数据首先要关注的重点。目前,许多数据相关机构已经意识到这一问题的重要性,并采取了一定措施。
随着数据量的增加,越来越多企业将自己的数据存储到云端,也正是因为大数据的集中存储,给数据隐私和安全带来了很大挑战。
造成这一问题的原因,一方面是数据本身安全程序不够安全,不能保护如此大量的数据;另一方面,目前的安全技术对管理动态数据的效率比较低,只能控制动态数据,所以,通过常规检查是无法检测现在不断积累产生的流动数据的。
面对数据隐私安全的威胁,我们可以从以下几个方面来进行保护。
保护交易记录和数据
存储在存储介质(例如事务日志和其他敏感信息)中的数据仅仅按照安全级别进行存储起来,其安全性是不够的。例如,IT经理可以通过观察不同级别之间的数据传输,了解被移动的数据。而数据量的不断增加,使得大数据的可扩展性和可用性存储管理需要进行自动分层。然而,自动分层的方法目前不能跟踪到数据的存储位置,因此,大数据存储面临新的挑战。
端点输入验证和过滤
端点设备是维护大数据安全的主要因素。大数据处理是借助于端点提供的输入数据来执行存储、处理和其他必要任务。因此,企业或者其他机构应确保使用真实和合法的终端设备。
保护分布式框架内的数字资产
分布式框架中的计算数据和其他数字资产,如Hadoop的MapReduce函数,大多缺少安全保护。对于这一问题,目前主流的预防措施是确保映射器安全,尤其是保护那些未经授权的映射器数据。
实时保护数据
由于大量数据的生成是实时的,大多数组织无法保证能够进行定期检查。但是,对于数据保护来说,实时或基本实时地进行安全检查和观察是一种有效保证数据安全的措施。
保护访问和加密
数据安全存储设备是保护数据的重要保障。但是,数据存储设备本身易遭受攻击,因此,需要通过加密访问的方式进行保护。
保护数据
准确确定数据来源并对其进行分类,确保对其进行认证、验证和访问控制。
颗粒检测
对不同种类的日志进行分析,并通过此方式来识别任何类型的网络攻击或恶意活动。因此,需要对各类数据进行定期审核。
粒度访问控制
NoSQL数据库或Hadoop分布式文件系统,在对存储数据进行精细访问控制时,需要强大的身份验证过程和强制访问控制。
非保守数据存储的隐私保护
NoSQL等数据库在存储数据时存在许多安全漏洞,其中最突出的安全缺陷是在数据的标记或记录过程中,无法对数据进行彻底加密,而当它被流式传输或收集时,数据库也无法将其分发到不同的组。需要其他数据库对其进行安全补充。
对于拥有数据的主体来说,都要确保大数据库免受安全威胁和漏洞的攻击。在收集数据的过程中,需要采取适当措施,实现必要的安全保护,如实时管理等。大数据体量之大,给其管理带来一定困难,但通过以上手段,可以大大提升数据安全性,保证数据安全。
来源:36大数据